Massive collection and explosive growth of the huge amount of medical data, demands effective compression for efficient storage, transmission and sharing. Readily available visual data compression techniques have been studied extensively but tailored for nature images/videos, and thus show limited performance on medical data which are of different characteristics. Emerging implicit neural representation (INR) is gaining momentum and demonstrates high promise for fitting diverse visual data in target-data-specific manner, but a general compression scheme covering diverse medical data is so far absent. To address this issue, we firstly derive a mathematical explanation for INR's spectrum concentration property and an analytical insight on the design of compression-oriented INR architecture. Further, we design a funnel shaped neural network capable of covering broad spectrum of complex medical data and achieving high compression ratio. Based on this design, we conduct compression via optimization under given budget and propose an adaptive compression approach SCI, which adaptively partitions the target data into blocks matching the concentrated spectrum envelop of the adopted INR, and allocates parameter with high representation accuracy under given compression ratio. The experiments show SCI's superior performance over conventional techniques and wide applicability across diverse medical data.
translated by 谷歌翻译
在弱光环境下,手持式摄影在长时间的曝光设置下遭受了严重的相机震动。尽管现有的Deblurry算法在暴露良好的模糊图像上表现出了令人鼓舞的性能,但它们仍然无法应对低光快照。在实用的低光脱毛中,复杂的噪声和饱和区是两个主导挑战。在这项工作中,我们提出了一种称为图像的新型非盲脱毛方法,并具有特征空间Wiener Deonervolution网络(Infwide),以系统地解决这些问题。在算法设计方面,Infwide提出了一个两分支的架构,该体系结构明确消除了噪声并幻觉,使图像空间中的饱和区域抑制了特征空间中的响起文物,并将两个互补输出与一个微妙的多尺度融合网络集成在一起高质量的夜间照片浮雕。为了进行有效的网络培训,我们设计了一组损失功能,集成了前向成像模型和向后重建,以形成近环的正则化,以确保深神经网络的良好收敛性。此外,为了优化Infwide在实际弱光条件下的适用性,采用基于物理过程的低光噪声模型来合成现实的嘈杂夜间照片进行模型训练。利用传统的Wiener Deonervolution算法的身体驱动的特征并引起了深层神经网络的表示能力,Infwide可以恢复细节,同时抑制在脱毛期间的不愉快的人工制品。关于合成数据和实际数据的广泛实验证明了所提出的方法的出色性能。
translated by 谷歌翻译
The task of motion forecasting is critical for self-driving vehicles (SDVs) to be able to plan a safe maneuver. Towards this goal, modern approaches reason about the map, the agents' past trajectories and their interactions in order to produce accurate forecasts. The predominant approach has been to encode the map and other agents in the reference frame of each target agent. However, this approach is computationally expensive for multi-agent prediction as inference needs to be run for each agent. To tackle the scaling challenge, the solution thus far has been to encode all agents and the map in a shared coordinate frame (e.g., the SDV frame). However, this is sample inefficient and vulnerable to domain shift (e.g., when the SDV visits uncommon states). In contrast, in this paper, we propose an efficient shared encoding for all agents and the map without sacrificing accuracy or generalization. Towards this goal, we leverage pair-wise relative positional encodings to represent geometric relationships between the agents and the map elements in a heterogeneous spatial graph. This parameterization allows us to be invariant to scene viewpoint, and save online computation by re-using map embeddings computed offline. Our decoder is also viewpoint agnostic, predicting agent goals on the lane graph to enable diverse and context-aware multimodal prediction. We demonstrate the effectiveness of our approach on the urban Argoverse 2 benchmark as well as a novel highway dataset.
translated by 谷歌翻译
由于经过验证的2D检测技术的适用性,大多数当前点云检测器都广泛采用了鸟类视图(BEV)。但是,现有方法通过简单地沿高度尺寸折叠的体素或点特征来获得BEV特征,从而导致3D空间信息的重丢失。为了减轻信息丢失,我们提出了一个基于多级特征降低降低策略的新颖点云检测网络,称为MDRNET。在MDRNET中,空间感知的维度降低(SDR)旨在在体素至BEV特征转换过程中动态关注对象的宝贵部分。此外,提出了多级空间残差(MSR),以融合BEV特征图中的多级空间信息。关于Nuscenes的广泛实验表明,该提出的方法的表现优于最新方法。该代码将在出版时提供。
translated by 谷歌翻译
当许多松散相关的未标记数据可用并且稀缺标记的数据时,机器智能的范式从纯粹的监督学习转变为更实用的情况。大多数现有算法都假定基础任务分布是固定的。在这里,我们考虑了随着时间的推移,该任务分布中的一个更现实和具有挑战性的环境会不断发展。我们将这个问题称为半监督的元学习,并具有不断发展的任务分布,缩写为集合。在这种更现实的环境中出现了两个关键挑战:(i)在存在大量未标记的分发(OOD)数据的情况下,如何使用未标记的数据; (ii)如何防止由于任务分配转移而导致先前学习的任务分布的灾难性遗忘。我们提出了一种强大的知识和知识保留的半监督元学习方法(秩序),以应对这两个主要挑战。具体而言,我们的订单引入了一种新型的共同信息正则化,以使用未标记的OOD数据鲁棒化模型,并采用最佳的运输正规化来记住以前在特征空间中学习的知识。此外,我们在一个非常具有挑战性的数据集上测试我们的方法:大规模非平稳的半监督任务分布的集合,该任务分布由(至少)72K任务组成。通过广泛的实验,我们证明了拟议的订单减轻了忘记不断发展的任务分布,并且对OOD数据比相关的强基础更强大。
translated by 谷歌翻译
高维和不完整(HDI)数据在各种工业应用中具有巨大的交互信息。潜在因素(LF)模型在从具有随机梯度不错(SGD)算法的HDI数据中提取有价值的信息方面非常有效。但是,基于SGD的LFA模型患有缓慢的收敛性,因为它仅考虑当前的学习误差。为了解决这个关键问题,本文提出了一个非线性PID增强自适应潜在因素(NPALF)模型,具有两个折叠的想法:1)通过考虑过去的学习错误,按照非线性PID控制器的原理来重建学习错误;b)按照粒子群优化(PSO)算法的原理有效地实施所有参数适应。四个代表性HDI数据集的经验结果表明,与五个最先进的LFA模型相比,NPALF模型可实现HDI数据缺失数据的更好的收敛率和预测准确性。
translated by 谷歌翻译
关于自适应梯度方法等自适应梯度方法等训练动力的知之甚少。在本文中,我们阐明了这些算法在全批处理和足够大的批处理设置中的行为。具体而言,我们从经验上证明,在全批训练中,预处理的Hessian的最大特征值通常在某个数值下平衡 - 梯度下降算法的稳定性阈值。对于带有步长$ \ eta $和$ \ beta_1 = 0.9 $的Adam,此稳定性阈值为$ 38/\ eta $。在Minibatch培训期间发生了类似的影响,尤其是随着批处理大小的增长。然而,即使自适应方法在``稳定性的自适应边缘''(AEOS)上训练,但它们在该制度中的行为与EOS的非自适应方法的行为有很大不同。 EOS处的非自适应算法被阻止进入损失景观的高曲率区域,而AEOS的自适应梯度方法可以继续前进到高外观区域,同时适应预先调节器以补偿。我们的发现可以成为社区对深度学习中适应性梯度方法的未来理解的基础。
translated by 谷歌翻译
无任务持续学习(CL)旨在学习非平稳数据流,而无需明确的任务定义,不要忘记以前的知识。广泛采用的内存重播方法可能会逐渐对长数据流有效,因为该模型可能会记住存储的示例并过度拟合内存缓冲区。其次,现有方法忽略了内存数据分布的高不确定性,因为内存数据分布与所有先前数据示例的分布之间存在很大差距。为了解决这些问题,我们首次提出了一个原则的内存演进框架,以使内存缓冲区逐渐难以通过分布强大的优化(DRO)来动态发展内存数据分布。然后,我们得出了一个方法家族,以通过Wasserstein梯度流(WGF)在连续概率中进化内存缓冲区数据。所提出的DRO是W.R.T最糟糕的记忆数据分布,因此保证了模型性能,并且比现有基于内存重新播放的方法更加可靠的功能。对现有基准测试的广泛实验证明了拟议方法减轻遗忘的有效性。作为拟议框架的副产品,与现有的无任务CL方法相比,我们的方法对对抗性示例更强大。
translated by 谷歌翻译
手语是人们表达自己的感受和情感的不同能力的窗口。但是,人们在短时间内学习手语仍然具有挑战性。为了应对这项现实世界中的挑战,在这项工作中,我们研究了运动传输系统,该系统可以将用户照片传输到特定单词的手语视频。特别是,输出视频的外观内容来自提供的用户图像,而视频的运动是从指定的教程视频中提取的。我们观察到采用最先进的运动转移方法来产生语言的两个主要局限性:(1)现有的运动转移工作忽略了人体的先前几何知识。 (2)先前的图像动画方法仅将图像对作为训练阶段的输入,这无法完全利用视频中的时间信息。为了解决上述局限性,我们提出了结构感知的时间一致性网络(STCNET),以共同优化人类的先前结构,并具有符号语言视频生成的时间一致性。本文有两个主要贡献。 (1)我们利用细粒骨骼检测器来提供人体关键点的先验知识。这样,我们确保关键点运动在有效范围内,并使模型变得更加可解释和强大。 (2)我们引入了两个周期矛盾损失,即短期周期损失和长期周期损失,这些损失是为了确保生成的视频的连续性。我们以端到端的方式优化了两个损失和关键点检测器网络。
translated by 谷歌翻译
人体肢体运动跟踪和识别在医疗康复训练,下肢辅助,截肢者的假肢设计,辅助机器人的反馈控制等中起着重要作用。轻质可穿戴的传感器,包括惯性传感器,表面肌电图传感器以及柔性应变/压力,柔性应变/压力,有望成为下一代人类运动捕获装置。本文中,我们提供了一种无线可穿戴设备,该设备由16通道柔性海绵的压力传感器阵列组成,通过检测由小腿胃gastrocnemius肌肉作用引起的人类皮肤上的轮廓来识别各种人类下肢运动。每个感应元件都是薄碳纳米管/聚二甲基硅氧烷纳米复合材料的圆形多孔结构,直径为4 mm,厚度约为400 {\ mu} m。招募了十个人类受试者,以执行十个不同的下肢运动,同时佩戴开发设备。用支持向量机方法的运动分类结果显示,所有十项测试的动作的宏记录约为97.3%。这项工作证明了具有下肢运动识别应用的便携式可穿戴肌肉活动检测装置,可以在辅助机器人控制,医疗保健,体育监测等中使用该设备。
translated by 谷歌翻译